Diffusion Model
2023年10月12日
@yuma_koizumi: 今月の音響学会誌に、@yatabe_ 先生と一緒に、拡散モデルの解説を寄稿しました。元々、「易しい解説」の予定だったので、理工系の学部生をターゲットにして書いています。理工系でない方も分かるよう、2章は数式を一切使わず説明してみました。ご笑覧ください。 https://pbs.twimg.com/media/F8MiudhaMAAHb1_.jpg
@btreetaiji: 拡散モデルが話題ですが,拡散モデルは分布推定の意味でミニマックス最適な推定誤差を達成可能であることを示しました. 分布のサポートが低次元である場合は次元の呪いを回避し,Wasserstein距離の意味で最適レートを達成することも示しています.
主著は弊研究室M1の大古君です.
https://www.youtube.com/watch?v=tfOv8NLCnZs
https://www.youtube.com/watch?v=O5FFQZzGFaE
https://www.youtube.com/watch?v=soJUR-fiqnI
2015年に米Stanford UniversityのSohl-Dickstein氏らによって最初のモデルが提案されてから)しばらく注目されていなかった
2020年に米University of California BerkeleyのJonathan Ho氏ら)によって ネットワークアーキテクチャや学習手法を工夫すれば他の深層生成モデルと同じ、もしくは上回る品質を達成できる
デノイジングスコアマッチングなどとつながりがある
ことが示され(本コラム 2020年9月号も参照)、再注目された。
生成品質が高く、最尤推定によって学習するので多様なデータを生成でき、かつ安定して学習させることができる。 特に2022年4月に米OpenAIから発表されたDALL·E 2は拡散モデルを使ってテキストからの画像生成をこれまでにない品質と多様性で実現した 内部で2つの拡散モデル(テキストからCLIP画像埋め込みベクトル、CLIP画像埋め込みベクトルから画像)を組み合わせて使っている
実際にはテンソルらしい
これまで難しかった動画生成も拡散モデルを使うことで実現できたと報告されている
似たようなデータしか生成しなくなる現象 が起きにくい
など
https://gyazo.com/76a297d3d4f9b7960c0cce2e861ed4c1
VAEは代理的に用いているロス関数に依存しています。 flowでは、逆変換を行えるモデル構造をしていなければいけません。 Diffusion Modelは非平衡熱力学から発想を得ています。マルコフ連鎖を用いて各diffusion stepで少しずつ画像などの実データにランダムノイズを足していきます。モデルは反対にノイズから少しずつ実データに近づけていくように学習します。 VAEやFlowとは異なり、学習はすべて固定されて行われ、偏在変数は元データと同じ分だけの大きさを持ちます。 https://gyazo.com/be9161c0c855804fda2e52cc004e002b
確率的勾配Langevin動力学
https://www.youtube.com/watch?v=10ki2IS55Q4